Policy Gradient
entropy
制約
項付きのpolicy gradientと
Q学習
は
類似
しており,ある仮定のもとでは
等価
.